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摘 要 : [目的 /意义 ] 查 询 似 然 模 型 存在 零 概 率 问题 ,融合 


多 源 信息 对 模型 进行 扩展 ,不仅 可 以 解决 零 概 率 问 题 ,还 可 以 实 


现 对 全 局 信息 的 差异 化 处 理 , 降 低 嗓 声 。[ 方 法 /过 程 ] 通 过 LDA 主题 挖 据 和 历史 微 博 兴趣 挖掘 ,分 别 获 取 初 始 微 
博 的 主题 相关 信息 和 兴趣 相关 信息 ,并 将 二 者 与 全 局 信息 融合 ,用 于 改进 初始 微 博 的 语言 模型 估计 ,从 而 得 到 扩 
展 的 微 博 查询 似 然 模型 。 运 用 网 络 爬 由 m e n T 的 有 效 性 。 [4 
果 / 结 论 ] 实验 结果 表明 :与 已 有 的 查询 似 然 模型 扩展 方法 相 比 ,新 模型 具有 较 好 的 检索 性 能 。 


美 键 词 : 多 源 信息 MER ”查询 似 然 模型 ”主题 信息 
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SIE 
随 着 移动 互联 网 的 进一步 发 展 , 微 博 逐 步 成 为 人 
i Mobil 息 的 重要 平台 。 为 解决 海量 微 
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考虑 其 他 信息 ( 如 兴趣 信息 .时 间 信 息 等 ) , 故 直接 将 
传 宪 文 本 检索 模型 用 于 微 博 检索 不 妥 。 查 询 似 然 模型 
是 个 前 主流 的 微 博 检 索 模 型 ,其 相似 度 计算 包括 文档 
先 验 概率 和 文档 语言 模型 估计 ( 即 词 项 在 文档 语言 模 
型 中 的 概率 分 布 ) ,其 中 文档 语言 模型 估计 是 否 准确 直 
接 影响 到 模型 的 检索 性 能 ,为 解决 数据 稀 朴 性 导致 该 
估计 值 可 能 出 现 的 零 概 率 问题 ,相关 学 者 对 查询 似 
然 模型 进行 了 系列 扩展 研究 ,扩展 内 容 主要 围绕 文档 
语言 模型 的 估计 展开 。 

在 传统 文本 检索 领域 ,文档 语言 模型 估计 的 扩展 
研究 大 致 分 为 两 个 阶段 :@ 通 过 引入 全 局 信息 对 语言 
模型 进行 估计 , 如 Jelinek-Merrer ( JM ) 77 法 外 和 
Dirichlet Prior( DIR ) 方 法 2 。 此 类 方法 虽 有 效 解决 了 
传统 语言 模型 估计 中 的 零 概率 问题 ,但 由 于 未 对 全 局 


信息 进行 差异 化 处 理 ,导致 大 量 噪声 信息 的 引入 ,从 而 
影响 了 信息 检索 的 准确 性 ;@ 通 过 融合 全 局 信息 和 其 
他 相关 信息 poaait X du A 
聚 类 信息 对 全 局 信息 进行 修订 ,提出 一 种 融合 聚 类 信 
息 和 全 局 信息 的 语言 模型 估计 方法 ,实现 对 传统 查询 
似 然 模 型 的 扩展 。T. Tao 等 5 将 内 容 近 邻 信息 与 全 局 
信息 seem gne Aet 
研究 结果 表明 : 相 较 于 第 一 阶段 直接 引入 全 局 信息 
t uci ei 
进行 估计 ,从 而 有 效 地 实现 对 查询 似 然 模型 的 扩展 。 
上 述 研 究 主要 针对 的 是 传统 文本 检索 ,考虑 到 微 
博 和 传统 文本 的 不 同 ,相关 研究 者 结合 微 博 的 特点 对 
微 博 查询 似 然 模型 展开 了 扩展 研究 ,基本 思路 为 :首先 
结合 微 博 的 特点 确定 微 博 相关 信息 ,然后 融合 相关 信 
息 和 全 局 信息 改进 微 博 查询 似 然 模型 。 例如: M. 
Efron 等 四 考虑 到 微 博 较 短 , 将 其 视 为 查询 ,并 结合 相 
关 反 馈 方 法 得 到 微 博 的 相关 信息 ,通过 融合 微 博 的 相 
关 信 息 和 全 局 信息 对 微 博 语言 模型 进行 估计 ,得 到 改 
进 的 微 博 查询 似 然 模 型 ; 李 锐 等 ”考虑 到 微 博 的 时 效 
性 和 交互 性 ,基于 用 户 的 历史 微 博 和 交互 信息 获取 相 
关 微 博 , 将 获取 的 相关 微 博 和 全 局 微 博 融 合 , 得 到 一 种 
改进 的 微 博 语言 模型 估计 方法 ; M. Efron 等 中 利用 
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Hashtag 获取 相关 微 博 ,提出 一 个 融合 Hashtag 和 全 局 
信息 的 微 博 查 询 似 然 模 型 。Hashtag 是 微 博 中 一 个 特 
殊 标签 ,具有 相同 Hashtag 的 微 博 属于 同一 个 话题 , 利 
用 Hashtag 包含 的 信息 可 有 效 获得 当前 微 博 的 相关 微 
博 。 

综 上 , 微 博 语言 模型 佑 计 是 微 博 查询 似 然 模 型 中 
的 关键 项 , 估计 准确 与 否 直接 影响 微 博 检索 的 性 能 ， 
如 何 获取 有 效 的 相关 微 博信 息 是 实现 准确 估计 的 关 
键 。 基 于 此 ,论文 在 已 有 研究 的 基础 上 ,综合 考虑 微 博 
自身 信息 .全 局 信息 .主题 信息 以 及 作者 兴趣 信息 4 个 
方面 ,多 维度 获取 相关 微 博 ,提出 一 种 多 源 信息 融合 的 
微 博 查 询 似 然 模 型 。 在 信息 检索 领域 ,主题 挖 气 是 获 
取 文 本 语义 信息 的 重要 手段 "1 ,LDA ( Latent Dirichlet 
Aleeation ) 主题 模型 Po) 自 2003 年 被 提出 之 后 ,已 被 广 
泛 应 用 于 主题 挖掘 ,论文 将 依据 LDA 模型 进行 主题 控 
气 3 获 取 微 博 的 主题 相关 信息 。 此 外 ,用 户 兴趣 挖 气 是 
个 性 化 检索 的 关键 技术 之 一 0 ,有 效 的 兴趣 挖 所 
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CJ 多 源 信息 的 获取 是 论文 所 提出 扩展 模型 的 关键 ， 
其 凶 自 身 信息 即 为 微 博 本 身 ,全 局 信息 为 当前 可 以 使 
所 阐 所 有 信息 ,二 者 易于 获取 。 对 于 主题 相关 信息 , 论 
文 党 用 实证 研究 的 方法 ,基于 LDA 模型 进行 主题 控 
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WIS 山 的 主题 向 量 
微 博 d 的 主题 向 县 


掘 ,通过 计算 基于 主题 分 布 的 距离 ,获得 主题 相关 微 博 
集 (基于 主题 的 语义 信息 )。 对 于 兴趣 相关 信息 ,首先 
基于 用 户 的 历史 微 博 集 挖 掘 其 兴趣 ,然后 通过 兴趣 相 
关 度 计算 获得 兴趣 相关 微 博 集 。 上 述 信息 中 ,全 局 信 
息 是 当前 可 用 的 微 博 全 集 , 该 类 信息 可 以 有 效 解决 数 
据 稀 玻 性 问题 ,但 其 缺点 是 会 引入 很 多 噪声 。 降 低 这 
些 噪声 的 方法 就 是 提高 全 局 信息 中 更 能 体现 初始 微 博 
内 容 相关 信息 的 权重 ,这 样 噪声 权重 排序 就 会 后 移 , 从 
而 降低 噪声 引入 的 概率 , 主题 相关 信息 和 兴趣 相关 信 
息 的 引入 可 以 达到 上 述 降 噪 的 目的 。 

本 文 的 研究 框架 如 图 1 所 示 ,主要 工作 包括 以 下 3 
个 方面 : 

(1) 微 博 d, 主题 相关 信息 的 获取 :基于 LDA 主题 
模型 进行 主题 挖掘 ,将 微 博文 本 表示 为 到 个 主题 下 的 概 
率 分 布 向 量 , 并 基于 微 博文 本 的 主题 分 布 差 异 计 算 微 博 
相关 度 ,获得 微 博 基于 主题 信息 的 相关 微 博 集 7。 

(2) 微 博 d; 兴趣 相关 信息 的 获取 :依据 微 博 d; 所 
属 作 者 的 历史 微 博 挖掘 作者 兴趣 ,为 体现 兴趣 的 动态 
性 ,给 出 了 兴趣 词 的 动态 权重 计算 方法 。 通 过 计算 每 
条 微 博 和 作者 兴趣 的 相似 度 ,获得 作者 的 兴趣 微 博 集 
I; 


(3) 多 源 信息 融合 :将 T 和 微 博 全 集 融 合 ,平滑 
初始 微 博 d, ,重新 估计 词 项 在 微 博 中 的 概率 分 布 ,得 到 
扩展 的 微 博 查 询 似 然 模 型 。 


微 博 d 的 多 源 信息 


初始 微 博 


基于 主题 信息 的 
相关 微 博 集 了 


多 源 信息 融合 的 
微 博 语 言 模型 估计 


扩展 的 微 博 查询 
似 然 模 型 


基于 作者 兴趣 的 
微 博 集 I 


图 1 微 博 查询 似 然 模 型 扩展 研究 框架 
的 联合 概率 分 布 。J. M. Ponte 和 W. B. Croft? 提出 


3 _ 传统 查询 似 然 模型 
在 信息 检索 领域 中 ,语言 模型 将 文本 表示 成 词语 


的 查询 似 然 模型 是 语言 模型 应 用 于 信息 检索 的 经 典 模 
型 ,计算 公式 如 下 : 
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Pl(d,lg) =logP(d;,) + > elk,q)logP(kIM, ) 


R1 微 博 - 主题 概率 分 布 矩 阵 
主题 


其 中 ,4 表示 查询 ,d; 表示 文档 ,k 表示 词语 ,V 表 
示 所 有 词语 的 集合 ,M, 表示 文档 语言 模型 ;P(d;1g) 表 
示 在 查询 4 的 条 件 下 检索 到 文档 d, WER; PC) K 
示 文 档 的 先 验 概率 ,一 般 采用 等 概率 度量 , 即 假定 


公式 ( 1) ) Topic, Us Topic; e Topic m 
微 博 
d, Py Py Py 
di Pi id: Pj i Pig 
d, Py ici Py is Pan 


待 检索 文档 的 先 验 概率 是 相等 的 ;c(,g) 表示 词语 
在 查询 g 中 出 现 的 次 数 ;p(k1M, ) 为 词语 在 文档 语 
言 模型 M, 中 的 概率 分 布 , 即 文档 语言 模型 的 估计 , 计 
算 方 法 如 公式 (2) BER: 
LEAL 公式 (2) 
公式 (2) 中 ,P,,(k1M, ) 表示 采用 极 大 似 然 估计 
HIFA POEM, ) e Cb, di) ,表示 词语 大 在 文档 @ 中 
出 现 的 次 数 ,141 表 示 文 档 d, 中 包含 词语 的 个 数 。k 
表示 词 项 全 集中 的 词 ,如 果 文档 d, 中 不 包括 该 词 , 则 
会 出 现 零 概率 问题 ,导致 ogP(. ) 计算 无 意义 , 且 文 
档 融 得 零 概率 问题 越 严 重 。 实 际 情况 中 ,词语 上 虽然 
不 在 文档 d, 中 出 现 ,但 是 其 相关 词 如 果 在 d, 中 出 现 ， 
该 概率 值 不 应 该 为 0 , 故 解决 零 概率 问题 的 关键 是 
找到 相关 信息 ,有 效 平滑 初始 文档 d, i alc fO 
概 吏 估计 方法 计算 p(k1M,) ,这 也 是 本 文 的 研究 出 
EN. 


>< 多 源 信息 融合 的 微 博 查询 似 然 模型 
斧 为 克服 传统 查询 似 然 模型 的 不 足 ,准确 估计 词 项 


在 安 档 中 的 概率 分 布 ,提高 基于 查询 似 然 模型 的 微 博 
检索 的 综合 性 能 ,本 文 在 已 有 研究 的 基础 上 ,采用 主题 
相关 信息 (属于 语义 相关 ) 和 兴趣 相关 信息 (属于 个 性 
化 信息 ) 对 全 局 信息 进行 差异 化 处 理 ,平滑 初始 微 博 ， 
提出 一 个 扩展 的 微 博 查 询 似 然 模 型 。 
4.1 ”基于 主题 信息 的 相关 微 博 集 获取 

LDA 模型 是 当前 主流 的 文本 主题 挖掘 方法 ,通过 
LDA 模型 对 文本 训练 后 ,文本 可 从 词语 空间 映射 到 主 
题 空间 ,实现 文本 的 语义 表示 。 本 文采 用 LDA 主题 
模型 对 微 博 文本 进行 建 模 :首先 利用 Python 中 的 Gen- 
sim 工具 包 训 练 得 到 m 个 主题 ,然后 将 每 条 微 博 表示 
为 在 m 个 主题 下 的 概率 分 布 ,获得 如 表 1 所 示 的 微 博 
- 主题 概率 分 布 矩 阵 。 其 中 ,n 表示 微 博 全 集中 微 博 
的 条 数 ,m 表示 微 博 主题 的 个 数 ( 其 值 由 实验 获取 ) d 
表示 第 i 条 微 博 ,Topic, RRE j 个 主题 ,P, 表 示 第 i 条 
微 博 在 第 j 个 主题 上 的 分 布 概率 。 


P(EMM,) = P (K1M,) = 


经 过 上 述 训练 后 , 微 博 d; 可 被 表示 为 由 不 同 主题 
下 的 概率 分 布 组 成 的 主题 向 量 , 即 : 
di =(P, Pa, ws Pim) 公式 (3) 
在 上 述 表 示 的 基础 上 ,我 们 采用 JS 距离 ”计算 
任意 两 条 微 博 RU d, 的 主题 相关 度 , 计 算 公 式 如 下 : 
d, + d, )] 
2 
公式 (4) 
ANSR(A) P, KL- ) 用 于 度量 两 个 量 之 间 的 非 对 


d, *d 
称 距离 ,计算 方法 如 公式 (5) MR, T der RCM d, 


和 在 m 个 主题 上 的 分 布 均值 。JS 距离 越 大 , 则 微 博 
之 间 的 分 布 差异 越 大 ,相关 度 越 小 。 本 文 依据 该 值 ,将 
JS 距离 由 小 到 大 排序 ,选取 Top - N, CN, 的 取 值 通过 
实验 获得 ) 个 微 博 组 成 与 当前 微 博 主 题 相关 的 微 博 集 


AT, 


d; * d, 
J8(4,4) 3| KLEC., 525 + KL(d,, 


公式 (5 ) 


ARC) P,P, RRHH d, 在 主题 Topic 上 的 概 
率 分 布 ,P, 表 示 微 博 d, 在 主题 Topic, 上 的 概率 分 布 。 
4.20 ”基于 作者 兴趣 的 相关 微 博 集 获取 

历史 微 博 可 有 效 体现 用 户 兴趣 ,本 文 依据 历史 
微 博 挖掘 作者 兴趣 ,计算 每 条 人 微 博 和 作者 兴趣 的 相似 
度 , 最 终 通过 阔 值 判断 获得 作者 的 兴趣 微 博 , 所 有 兴 
微 博 组 成 基于 作者 兴趣 的 相关 微 博 集 1。 假 设 用 户 
是 微 博 d, 的 作者 ,该 作 者 的 历史 微 博 集 为 D,h 为 历史 
微 博 集中 的 任意 一 个 词语 , 则 态 的 初始 权重 计算 公式 
为 : 


" P. 
KL(d,,d;) = SP,log 5 
À 


n IDI a 
- 1 公式 
original | d, | x og | | r 13 € d, | | Zx T (6 ) 


公式 (6) 中 ,ww 表示 词语 的 初始 权重 ,n 表 
示 词 语 在 微 博 d, 中 出 现 的 次 数 ,14,1 表 示 微 博 d, 中 
包含 的 词语 个 数 ,1D1 表 示 历 史 微 博 集中 的 微 博 条 数 ， 
1r 沁 Ed 11 表示 历史 微 博 集中 包含 词语 万 的 微 博 
数 。 

考虑 到 微 博 用 户 的 兴趣 会 随时 间 而 逐渐 衰减 ,本 
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文 基于 词语 所 属 微 博 的 发 布 时 间 对 词语 的 权重 进行 更 
新 。 依 据 指数 衰减 的 思想 ,更 新 后 词语 的 权重 计算 公 
式 为 : 


Wi -new = Wh, -original X € Hk: 公式 (7) 

其 中 ,wi ,表示 词语 更 新 后 的 权重 ,At 表示 微 博 

发 布 时 间 与 历史 微 博 集中 最 新 时 间 的 距离 ,p 为 指数 

衰减 参数 ,本 文 依据 J，Choi 的 实验 结果 将 其 设置 为 

0.02。 

由 于 词语 方 在 不 同 微 博 中 的 权重 可 能 不 同 ,本 文 

将 k, 在 整个 历史 微 博 集中 权重 的 平均 值 作为 该 词语 
在 历史 微 博 集中 的 权重 , 即 : 

Te 公式 (8) 

一 其 中 ,w,， 表 示 历 史 微 博 集 D 中 词语 的 权重 ,1 

D[ 丝 示 作 者 历史 微 博 集 中 微 博 的 条 数 。 通 过 上 述 计 

入 ,可 以 得 到 作者 历史 微 博 集中 每 个 词语 的 权重 。 本 


要 改进 了 文档 语言 模型 估计 P(E1M, ) 的 计算 ,避免 了 
传统 查询 似 然 模 型 存在 的 不 足 。 其 中 ,P kI M ) ;ow 
表示 改进 后 的 微 博 语言 模型 估计 ,Mj 表示 与 微 博 d 
主题 相关 微 博 集 7 构 建 的 语言 模型 ,M, 表示 依据 微 博 
d, 所属 作 者 的 兴趣 微 博 集 了 构建 的 语言 模型 ,Pu CRI 
Moi ARA M BK DA AST P.L UEM) RIR 
语言 模型 Wy 的 最 大 似 然 估计 ,PEF+ M) RR BEER 
型 M, 的 最 大 似 然 估计,Pw (FILMe) 表 示 语 言 模型 MM。 
的 最 大 似 然 佑 计 , 以 上 估计 均 采 用 公式 (2) 计 算 。p,(i 
-1,2,3,4) 为 调和 参数 , 且 >;-,B, =1。 全 局 信息 (P，, 
(kIMe) ) 的 加 入 可 避免 零 概率 的 问题 ,因为 词语 大 可 
能 不 属于 某 微 博 d;, 但 肯定 来 源 于 全 局 。 融 合 全 局 信 
息 的 次 端 是 噪声 的 引入 ,为 解决 该 问题 ,论文 依据 主题 
TRO fei CP, CET M) ) 和 兴趣 相关 信息 (P(E1M,)) 
对 全 局 信息 进行 差异 化 处 理 , 提 高 相关 词 的 概率 ,在 特 
征 选 择 时 ,小 概率 词 将 会 被 去 掉 , 从 而 有 效 地 避免 了 噪 


区 依据 词语 权重 选取 Top - N, 个 词语 表示 作者 兴 
(器 的 取 值 在 实验 部 分 说 明 ) ,例如 作者 w 的 兴趣 可 


i - interest 一 [LN MEM 公式 (9) 
获得 用 户 的 兴趣 表示 后 ,采用 公式 (10) 计 算 微 博 


u 


C N 
集 曲 任意 一 条 微 博 d, 和 作者 兴趣 us 的 相似 度 ,如 


"A 


| EL D ARD) 
(其中, sim (d, ,uw ) 表示 微 博 d, 和 作者 兴 
Up onnea BAUE N, 表示 作者 兴趣 表示 词 的 个 数 ,ww -p 
为 依据 公式 (8) 计 算 的 作者 兴趣 词 的 权重 ,1d IR 
示 作 者 兴趣 词 在 微 博 d, 中 出 现 的 次 数 ,1d, 1 表示 微 
T8 4, 包含 的 词语 个 数 。 选 取 相 似 度 大 于 阔 值 5 的 微 博 
作为 作者 的 兴趣 微 博 , 构 成 作者 u; 的 兴趣 微 博 集 1。 
4.3 ”扩展 的 微 博 查询 似 然 模型 

经 上 述 处 理 后 ,可 获得 微 博 d 的 基于 主题 信息 的 
相关 微 博 集 7 和 微 博 d 所 属 作者 的 兴趣 微 博 集 7, 通 
过 融合 词语 上 在 原 微 博 d; 中 的 分 布 M, ,在 主题 相关 微 
TRAE T 中 的 分 布 M, ,在 兴趣 相关 微 博 集 了 中 的 分 布 M, 
以 及 在 全 局 信息 中 的 分 布 Wu, 得 到 如 公式 (11) (12) 
所 示 的 微 博 查 询 似 然 模 型 : 

P(d,lg) =logP(d.,) + ck,g)logP kl M, ) improre 

公式 (11) 

P( kiM, ) improve =BiP, (klM, ) *tB,PACEIT,) +6; 
(Pi(klT,) +BP (klM.) 公式 (12) 

观察 公式 (11) 可 以 发 现 ,论文 提出 的 扩展 模型 主 


声 的 引入 。 

本 文采 用 层次 分 析 法 "确定 公式 (12) 中 的 平滑 
参数 B,(i=1,2,3,4)。 首 先 依据 1 -9 重要 程度 判断 
表 , 对 各 项 的 重要 程度 进行 两 两 比较 ,得 到 如 表 2 Bro 
的 判定 和 矩阵 ;然后 基于 判断 矩阵 ,计算 得 到 最 大 特征 根 
为 4.138 9 ,特征 向 量 为 (0.54 ,0.25 ,0.15 ,0.06) ,一 臻 
性 指标 为 0. 046 3 ,一 致 性 比例 为 0.051 4。 由 于 一 致 
性 比例 小 于 0.1 ,判断 矩阵 通过 一 致 性 检验 ,本 文 将 忆 ， 
的 取 值 分 别 确定 为 :0.54 .0.25 .0.15 .0.06。 


A2 判定 矩阵 
平滑 参数 Bi B» Bs Ba 
Bi 1 3 4 6 
[2 1/3 1 2 5 
Bs 1⁄4 12 1 4 
Ba 1/6 15 1⁄4 1 


5 实证 研究 


5.1 实验 数据 

新 浪 微 博 是 我 国 当前 最 具 权 威 性 的 微 博 平台 ,本 
文采 用 网 络 仆 虫 工具 候 取 661 845 条 新 浪 微 博 数 据 , 依 
据 查 询 似 然 模型 构建 了 微 博 检 索 系 统 。 息 取 的 数据 包 
括 微 博文 本 内 容 、 微 博 发 布 时 间 和 微 博 作 者 三 类 信息 。 
为 避免 无 效 数据 的 干扰 ,本 文 参照 TREC 会 议 (Text 
Retrieval Conference) 的 评测 要 求 并 结合 本 文 的 实验 
需要 ,对 扑 取 的 新 浪 微 博 数据 进行 如 下 人 处 理 :去除 已 
失效 或 只 含有 表情 符号 的 微 博 ;@ 去 除 长 度 小 于 30 个 
字符 的 微 博 ;外 将 数据 集中 的 所 有 繁体 字 转 换 为 简体 
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字 ;@ 采 用 Python 中 jieba 包 对 每 条 微 博 进行 分 词 处 
理 , 并 结合 哈工大 整理 的 《 停 用 词 表 》 对 分 词 处 理 后 的 
微 博文 本 进行 去 停 用 词 处 理 。 

对 疏 取 的 微 博 语 料 进行 上 述 处 理 后 ,本 文 参照 信 
息 检索 领域 中 小 型 测试 集 的 构建 方法 ” ,选取 17 010 
条 微 博 作为 微 博 检索 系统 的 文档 集 ,构建 了 5 个 查询 
及 相关 查询 集 ,每 个 查询 的 相关 性 采用 Pooling 77 i 7 
进行 标注 。 查 询 及 其 相关 文档 数 、 不 相关 文档 数 如 表 
3 所 示 : 


RI 微 博 检索 测试 集 


查 相关 文档 数 。 不 相关 文档 数 


查询 内 容 
查询 1 快乐 大 本 营 二 十 周年 生日 192 16 818 
查询 2 演员 的 诞生 章子怡 战队 236 16 774 
Tan 3 ”时 尚 区 莎 明星 慈善 基金 晚会 225 16 785 
Ten 4 电视 剧烈 火 如 歌 的 大 结局 85 16 925 
TOES 妈妈 是 超人 中 的 黄圣依 131 16 879 
562 评价 标准 


图 


一 本 文采 用 前 下 个 返回 结果 的 准确 率 (P@) 和 平 
Hp MRR) 对 微 博 检索 性 能 进行 评价 。 其 中 ， 


信息。 的 计算 公式 如 下 ， 
X P@k=+ 5r, 公式 (13) 


公式 (14) 


O 〇 公式 (13) 中 ,表示 前 6 个 检索 结果 ,如 果 检 索 结 
果 的 第 j 篇 文档 是 相关 的 , 则 7 = 1 ,否则 ~” =0。 本 文 
取 值 =30, 因 为 微 博 网 页 检索 的 前 两 页 共 包含 30 个 
检索 结果 。 公 式 (14) 中 ,1R1 为 相关 文档 的 总 数 ,rank， 
为 返回 结果 中 第 i 个 相关 文档 的 位 置 , MRR 的 值 越 高， 
则 相关 文档 在 结果 列表 中 越 靠 前 ,检索 性 能 越 好 。 模 
型 解释 如 表 4 所 示 : 
表 4 模型 简写 及 其 解释 


| RI &irank 


不 同 查询 似 然 模型 简写 模型 解释 

LM 基于 微 博 本 身 的 微 博 查询 似 然 模 型 

LM-JM 基于 微 博 本 身 全集 微 博 的 查询 似 然 模型 

LM-JM-Topic 基于 微 博 本 映 、 全 集 微 博 、 主 题 相关 微 博 的 查询 似 
然 模型 

LM-JM-Interest 基于 微 博 本 身 全集 微 博 ` 作 者 兴趣 微 博 的 查询 似 
然 模型 

LM-JM-Topic-Inter- ”基于 微 博 本 身 ,全集 微 博 .作者 兴趣 微 博 主题 相关 

est 微 博 的 查询 似 然 模 型 


5.3 ”实验 及 分 析 

本 文 实验 分 两 部 分 :第 一 部 分 为 相关 参数 的 设 定 ; 
第 二 部 分 为 微 博 检 索 采 用 不 同 查询 似 然 模型 时 对 应 的 
检索 性 能 对 比 。 其 中 ,第 二 部 分 实验 中 涉及 的 微 博 查 
询 似 然 模 型 的 简写 及 解释 见 表 4。 
5.3.1. 相关 参数 分 析 

本 文 实验 涉及 的 相关 参数 包括 : 微 博 主题 个 数 m， 
主题 相关 微 博 个 数 N, ,作者 兴趣 表示 词 个 数 N, ,作者 
兴趣 度 阔 值 5。 这 些 参数 均 通 过 反复 实验 进行 确定 。 
(1) 微 博 主题 个 数 m 的 确定 。 本 文通 过 计算 微 博 
文本 的 困惑 度 (perplexity ) “来 确定 微 博 主 题 的 较 优 
个 数 ,困惑 度 越 小 ,表示 模型 生成 文本 的 能 力 越 强 ,性 
能 越 好 ,其 计算 公式 为 : 


- >ilogP(h,) 

Es 

其 中 , 表示 全 集 微 博 D 中 包含 的 微 博 数目 ,d; 
H D 中 的 任意 一 条 微 博 ,N, 表示 微 博 d; 中 包含 的 词语 
数目 Le, 表示 微 博 d; 中 的 词语 ,P(h, ) 表 示 微 博 中 词 
语 出 现 的 概率 ,可 采用 公式 (16) 计 算 : 

P(k)-XP(z):P(klz) AUE) 

其 中 ,z 表 示 微 博 d, 涉及 的 某 个 主题 ,由 于 微 博文 
本 属于 典型 的 短文 本 ,涉及 的 主题 个 数 有 限 ,依据 本 文 
疏 取 的 实验 数据 规模 ,将 分 别 计算 主题 个 数 为 1,2,3， 
4,5,6,7,8,9,10 时 的 模型 困惑 度 ,得 到 如 图 2 所 示 的 
不 同 主题 个 数 下 模型 的 困惑 度 。 由 图 2 可 以 看 出 , 当 
主题 个 数 m=4 时 ,LDA 模型 的 困惑 度 较 小 , 故 本 文 将 
主题 个 数 设 定 为 4。 


0.78 


perplexity = exp 公式 (15) 


0.76 
0.74 
0.72 
0.70 


困惑 度 


0.68 
0.66 
0.64 
0.62 


0.60 


主题 个 数 m 


2 不 同 主题 个 数 下 LDA 模型 的 困惑 度 


(2) 基于 主题 信息 的 相关 微 博 集中 微 博 个 数 N, 
的 确定 。 采 用 适量 的 主题 相关 微 博 集 进行 平滑 可 有 效 
提高 微 博 语言 模型 估计 的 准确 性 ,数量 太 少 平滑 效果 
不 明显 ,数量 太 多 可 能 会 引入 噪声 。 为 获得 合理 的 基 
于 主题 信息 的 相关 微 博 数 IN, ,本 文 首先 分 别 以 数据 量 
间隔 为 10、100 和 1 000 为 单位 ,进行 实证 研究 ,结果 发 
现 : 当 间隔 为 10 时 ,主题 信息 无 法 充分 利用 ; 当 间 隔 为 
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1 000 时 ,引入 大 量 噪声 。 因 此 ,本 文 将 微 博 数量 间隔 
设置 为 100。 实 验 基于 LM-JM-Topic 方法 对 微 博 语言 
模型 进行 估计 ,在 和 N, 分 别 取 100 .200 ,300 .400 .500、 
表 5 不 同 主题 相关 微 博 数 下 5 个 查询 的 P@30 


600 ,700 .800 .900 .1 000 时 ,分 别 计算 5 个 查询 在 微 博 
检索 系统 中 的 P@ 30 ,实验 结 


吉 果 如 表 5 所 示 : 


P@30 100 200 300 400 500 600 700 800 900 1 000 
查询 1 0.433 0.467 0.567 0. 533 0.533 0. 533 0. 500 0.467 0. 433 0. 433 
查询 2 0. 533 0. 600 0.567 0.567 0.533 0.533 0.567 0.567 0.533 0. 533 
查询 3 0. 400 0.567 0.633 0. 633 0. 633 0. 467 0. 433 0. 400 0. 433 0. 433 
查询 4 0.367 0.367 0. 367 0. 333 0.300 0.300 0.267 0. 267 0.267 0. 233 
查询 5 0. 500 0. 533 0. 567 0. 567 0. 533 0. 533 0. 433 0. 400 0. 400 0. 367 
平均 值 0.447 0.507 0. 540 0. 527 0. 506 0.473 0.440 0.420 0.413 0. 400 


从 表 5 中 可 以 看 出 , 当 N, 2300 时 ,5 个 查询 的 P 
€ 30 平均 值 达到 较 高 值 , 这 说 明 选 取 Top -300 条 主题 
相关 微 博 可 以 较为 有 效 地 对 微 博 语言 模型 进行 估计 ， 
这 蛙 的 300 属于 粗略 较 优 取 值 ,如 果 想 获得 更 为 准确 
的 数据 可 以 采用 上 述 实验 方法 ， 将 间隔 值 调 小 ,重复 上 


述 实验 。 值 的 注意 的 是 ,查询 2 中 基于 主题 信息 的 相 
RRN m5700, 查询 3 iidem 页 信 an 


f «reef, ie 发 布 时 间 分 布 等 方面 具有 
ANIS! 性 , 故 综合 相关 度 较 高 ,导致 出 现 上 述 小 幅 反 


R, 但 是 ,这 些 反 复 并 未 超过 P@ 30 最 大 值 , 且 从 
PH P@30 值 来 看 ,小 幅 反 复 在 整体 上 并 不 影响 PO 
30 的 递减 趋势 , 故 本 文 将 IN, 初步 设 定 为 300。 

CO) 作者 兴趣 表示 词 个 数 N, 的 确定 。 本 文采 用 
公式 (6) 计 算 作 者 历史 微 博 集中 的 词 i 看 权重 ,并 对 其 
进行 排序 ， 然后 选取 Top - N, 个 词语 表示 作者 兴 

N, XU. 作者 兴趣 难以 被 充分 表示 ,N 过 大 ,对象 表示 
的 区 分 度 较 低 。 为 选取 适量 的 词语 表示 作者 兴趣 ,本 
文采 用 40S( 平 均 用 户 满意 度 ) 指标 “确定 作者 兴 
表示 词 的 数量 。 具 体 过 程 为 :首先 随机 选取 微 博 数据 
集中 10 个 微 博 作 者 ,并 采用 专家 小 组 法 对 10 个 作者 
的 兴趣 词语 进行 标注 ,选择 出 可 以 表示 每 个 作者 兴趣 
的 兴趣 词 集 ( 规模 小 于 或 等 于 40) ;然后 分 别 计算 这 10 
个 作者 的 Top -N 的 AUS 值 ,并 选取 较 高 的 AUS 对 应 
的 兴趣 词 个 数 作为 本 文 所 需 确定 的 Nao AUS 的 计算 
如 公式 为 : 


n, 


y” BL 
"UN, 
AUS = 公式 (17) 


公式 (17) Ts ado M RAMS Rud 


N, 表示 从 兴趣 词 列表 中 选取 的 词语 个 数 。 本 文 分 别 
令 N, 取 值 10 .20 .30 ,40 .50 .60 ,70 .80 .90 .100 得 到 图 
3 所 示 的 不 同 兴趣 词 个 数 与 AUS 之 间 的 关系 。 从 图 3 
中 可 以 看 到 , 当 作 者 的 兴趣 表示 词 个 数 为 40 时 ,4AUS 
值 较 高 , 故 本 文 初步 设 定 N, =40。 


0.9 


0.8 


0.7 


0.6 


0.5 


AUS 


0.4 


10 20 30 40 50 60 70 80 90 
兴 聚 表示 词 数目 


图 3 不 同 兴趣 表示 词 个 数 对 应 的 AUS 


(4) 作 者 兴趣 度 阔 值 6 的 确定 。 为 获得 合理 的 作 
者 兴趣 度 阔 值 ,实验 基于 LM-JM-Interest ( 该 方法 主要 
考虑 了 兴趣 相关 信息 ) 查询 似 然 模 型 ,在 6 分 别 取 0.1、 
0.2 0.3 .0.4.0.5 .0.6 .0.7 .0.8 .0.9 时 ,分 别 计 算 5 个 
查询 在 微 博 检索 系统 中 的 P@ 30 ,实验 结果 见 表 6。 

从 表 6 中 可 以 看 出 , 当 6=0.8 时 ,5 个 查询 的 Po 
30 平均 值 达 到 较 高 值 。 值 的 注意 的 是 ,查询 2 在 兴 
度 国 值 降低 到 0.4 时 ,查询 5 的 兴趣 度 闷 值 降低 到 0.2 
时 ,P@ 30 的 值 出 现 小 幅 反 复 。 这 些小 幅 反 复 并 未 超 
过 P@30 最 大 值 , 且 从 平均 值 来 看 ,其 在 整体 上 并 不 影 
响 P@ 30 的 递减 趋势 , 故 本 文 将 8 初步 设 定 为 0.8。 
5.3.2  LM-JM-Topic, LM-JM-Interest 和 LM-JM- 
Topic-Interest 性 能 比较 

本 文 依据 P 30 和 MRR 两 个 指标 对 LM-JM-Top- 
ic , LM-JM-Interest 和 LM-JM-Topic-Interest 3 种 查询 似 
然 模型 进行 性 能 比较 。 
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表 6 不 同 兴趣 微 博 数 下 5 个 查询 的 P@30 


P@30 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 

查询 1 0.467 0.467 0.467 0.467 0.467 0.433 0. 400 0.367 0.367 
查询 2 0.567 0. 600 0.567 0. 533 0. 567 0.600 0.567 0. 533 0.500 
查询 3 0.400 0.467 0.433 0.367 0.333 0.333 0.300 0.267 0.233 
查询 4 0.300 0. 333 0. 333 0. 300 0. 300 0.300 0.267 0. 233 0. 233 
查询 5 0. 633 0.767 0. 767 0. 733 0. 733 0.700 0.667 0. 700 0.567 
平均 值 0.473 0. 527 0. 513 0. 480 0. 480 0.473 0. 440 0. 420 0. 380 

(1) P@30 比较 。 在 微 博 检 索 系 统 中 ,分 别 采用 025 


LM-JM-Topic LM-JM-Interest fll LM-JM-Topic-Interest 作 
为 表示 模型 时 ,模型 检索 结果 对 应 的 P@ 30 如 图 4 所 


ZN: 
0.9 
0.8 
p 
qs 
pui 
«Q4. 
© 
© 
E 查询 1 查询 2 查询 3 查询 4 查询 5 查 问 类 型 
N EILM-JM-Topic ELM-JM-Interest 图 LM-JM-Topic-Interest 
s 4 不同 查询 似 然 模型 对 应 的 PO30 比较 


污 从 图 4 可 以 发 现 :采用 LM-JM-Topic-Interest 查询 
eios 5 个 查询 在 微 博 检索 系统 中 对 应 的 P@ 30 
值 旺 高 于 其 他 两 种 方法 ,这 说 明 本 文 最 终 提出 的 LM- 
JVÉETopic-Interest 查询 似 然 模型 相 比 于 LM-JM-Topic 查 
LM-JM-Interest 查询 似 然 模型 ,可 以 得 到 
更 勇 准确 的 估计 值 , 进 而 提高 微 博 检索 系统 的 查 准 率 。 

(2) MRR 比较 。 针 对 测试 集合 中 的 5 个 查询 ,LM- 
JM-Topic , LM-JM-Interest 和 LM-J M-Topic-Interest 3 种 
模型 对 应 的 文档 检索 排名 指标 MRR 值 见 图 5。 从 图 5 
可 以 看 出 ,采用 LM-JM-Topic-Interest 查询 似 然 模 型 对 
文档 进行 检索 时 ,5 个 查询 在 微 博 检索 系统 中 对 应 的 
MRR 值 均 高 于 其 他 两 种 方法 ,这 说 明 本 文 最 终 提出 的 
LM-JM-Topic-Interest 模型 相 比 于 LM-JM-Topic 和 LM- 
JM-Interest 可 以 使 相关 文档 的 排名 更 靠 前 。 

综 上 ,采用 LM-JM-Topic-Interest 查询 似 然 模型 对 
微 博 进行 检索 时 ,5 个 查询 在 微 博 检索 系统 中 的 P@ 30 
指标 和 MRR 值 均 优 于 其 他 两 个 模型 。 产 生 这 种 结 
的 原因 是 :LM-JM-Topic-Interest 方法 既 考 虑 了 主题 相 
关 微 博 的 信息 ,又 考虑 了 作者 的 兴趣 信息 ,而 其 他 两 种 
方法 引入 的 相关 信息 相对 片面 ,进而 导致 微 博 语 言 模 


02 


0.05 


查询 1 查询 2 查询 3 查询 4 查询 5 均值 查 问 类 型 
BLM-JM-Topie BLM-JM-Interest Œ LM-JM-Topic-IĪnterest 


5 不 同 查询 似 然 模型 对 应 的 MRR 比较 


型 佑 计 的 准确 性 不 足 ,影响 微 博 检 索 系 统 的 综合 性 能 。 
5.3.3 LM,LM-JM 和 LM-JM-Topic-Interest 3 种 方 
法 比较 

此 部 分 实验 用 于 比较 本 文 最 终 提出 的 LM-JM- 
Topic-Interest 查询 似 然 模型 和 传统 查询 似 然 模型 LM, 
基于 全 局 信息 扩展 的 查询 似 然 模型 LM-JM 的 性 能 。 

(1)Pe30 比较 。 图 6 为 采用 3 种 模型 对 测试 集 
合 中 的 5 个 查询 进行 检索 时 ,得 到 的 Peso 比较 图 。 
从 图 6 可 以 发 现 : 采 用 LM-JM-Topic-Interest 模型 对 微 
博 进行 检索 时 ,5 个 查询 在 微 博 检索 系统 中 对 应 的 P 
30 值 均 高 于 其 他 两 种 方法 ,这 说 明 本 文 最 终 提 出 的 
LM-JM-Topic-Interest 方法 相 比 于 LM 方法 和 LM-JM 方 
法 ,可 以 使 微 博 检 索 系统 得 到 更 高 的 查 准 率 。 
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6 查询 在 不 同 模型 中 的 P@30 比较 
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(2) MRR 值 比较 。 图 7 为 3 种 模型 的 MRR 值 。 观 
察 图 7 可 以 发 现 ,采用 LM-JM-Topic-Interest 模型 对 微 
博 进 行 检索 时 ,5 个 查询 在 微 博 检 索 系统 中 对 应 的 均 
高 于 其 他 两 种 方法 ,这 说 明 本 文 最 终 提出 的 LM-JM- 
Topic-Interest 方法 相 比 于 LM 方法 和 LM-JM 方法 可 以 
使 相关 文档 的 排名 更 靠 前 。 


0.25 
0.2 
0.15 
[ed 
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0.05 
Tg 
> 查询 1 查询 2 查询 3 查询 4 查询 5 均值 
T ELM 国 LM-JM &LM-JM-Topic-Interest 
D xam y 
q= 图 7 查询 在 不 同 模型 中 的 MRR 比较 
e 


全 综合 以 上 :采用 LM-JM-Topic-Interest $ AY IE ÍT (2 

HERET, S 个 查询 在 微 博 检索 系统 中 均 能 获得 比 其 
体现 种 模型 更 好 的 检索 性 能 。 因 此 ,LM-JM-Topic-Im- 
teres 模型 优 于 其 他 机 种 异型 。 产 生 这 种 结果 的 原因 
是 :3 芒 统 查询 似 然 模 型 仅 考虑 了 微 博 本 身 的 信息 ,存在 
时 守 数 据 稀 琉 性 导致 的 零 概率 问题 。 基 于 全 局 信息 的 
平 注 方 法 虽然 解决 了 零 概率 问题 ,但 过 多 的 补充 信息 
会 淖 入 噪声 数据 。 而 本 文 提出 的 微 博 查询 似 然 模型 利 
用 蛙 题 相关 信息 和 作者 兴趣 信息 对 全 局 信息 进行 了 关 
异 兹 处 理 ,可 以 有 效 提高 相关 词 的 概率 ,降低 噪声 词 的 
概 膏 ,进而 提高 微 博 语言 模型 估计 的 准确 性 ,提高 了 微 
博 检索 的 性 能 。 


6 结语 


考虑 到 已 有 查询 似 然 模型 存在 的 不 足 , 本 文 综 合 
利用 微 博 自 身 信息 .主题 信息 、 作 者 兴趣 信息 以 及 全 集 
微 博信 息 , 提 出 了 一 种 多 源 信息 融合 的 微 博 查 询 似 然 
模型 。 与 已 有 研究 相 比 ,本 研究 虽 在 一 定 程 度 上 提高 
了 微 博 检索 的 性 能 ,但 尚 存 不 足 之 处 ,未 来 研究 拟 围绕 
以 下 内 容 展 开 深 入 研究 :中 本 文 工 作 针对 的 是 离线 形 
式 的 微 博 数据 ,而 实际 微 博 数据 是 以 数据 流 的 形式 实 
时 更 新 , 故 未 来 研究 中 我 们 拟 结合 在 线 学 习 思 想 对 微 
博 查 询 似 然 模型 进行 改进 。@) 本 文 主要 结合 了 4 个 方 
面 的 信息 改进 查询 似 然 模型 ,但 有 利于 微 博 语言 模型 
估计 的 信息 还 有 其 他 多 个 方面 (如 :时 间 信 息 , 作 者 交 
互信 息 等 ) , 故 未 来 研究 将 深入 挖掘 其 他 有 效 信息 , 进 


步 提高 微 博 语言 模型 估计 的 准确 性 ,进而 提高 微 博 

检索 的 性 能 。 
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Microblog Query Likelihood Model Based on Multi-Source Information Fusion 
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Zhang Xiongtao” 
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* Department of Information Management, the Central Institute for Correctional Police, Baoding 071000 
Abstract: | Purpose/significance | Due to the existence of zero probability problem in the query likelihood mod- 


we propose to extend the model by multi-source information fusion, which not only solves zero probability prob- 


, but also achieves the differential processing of global information to reduce the introduction of noise. | Method/ 
process | Topic related information and interest related information were obtained based on LDA topic mining and his- 
Jorical Microblog interest mining respectively, then we integrated them with global information to modify the evalua- 
ðn of the original Microblog' s language model. Finally, an extended microblog query likelihood model is obtained. 
We used the web crawler tools to crawl data from Sina Weibo to verify the effectiveness of the extended model by em- 
pirical study. | Result/conclusion | Experimental results indicate that our model can achieve better retrieval perform- 
ance. 
query likelihood model topic information author 
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